有資料以後,要思考什麼是最常見或可觀的預測?限制條件有什麼?我們需要借助統計學工具得出結論。
下面會分這6點進行簡單的介紹,更深層的統計學知識會放在後面的內容:
平均值(Mean):所有數據點的總和 除 數據點的總數。對極端值較敏感。
中位數(Median):中間值,按大小排序後,中間就是中位數。對極端值較不敏感。
眾數(Mode):數據集中出現最多的值,一筆數據可有0至多個眾數。
四分位數(Quartiles):將一個數據集分四等分(Q1,Q2,Q3,Q4),每部分25%。Q3和Q1間的距離即為四分位距。
異常值(Outliers):與其他數據點相比有明顯不同的極端值,可能因為測量錯誤引起,需判斷是否保留。
變異數(Variance):衡量變異性的指標,計算每個數據與平均值的差的平方的平均值,越大代表越分散。
常態分佈(高斯分佈):一種連續型機率分布。以算數平均數作為中心,呈鐘形曲線左右對稱,中心數值出現頻率最高。
抽樣分佈:由隨機抽樣的樣本統統量所形成的機率分佈。其中,中央極限定理是統計學很重要的理論,從任何母體中抽取大量樣本時,這些樣本的平均值的抽樣分佈將近似於常態分佈。
假設檢驗(虛無假設H0、對立假設H1):先對母體參數提出假設,然後利用樣本的資訊再決定是否接受或否決。
t檢驗:用於比較兩個樣本平均值是否存在統計上的差異。常見三種:獨立樣本t檢定、配對樣本t檢定和單樣本t檢定。
點估計(Point Estimation):使用單一的值來估計未知的母群體參數,計算一具體數值做估計值。
區間估計(Interval Estimation):通過計算信賴區間來估計母體參數範圍,通常使用顯著水平來表示信賴區間的置信程度。
歸一化:把原始數據按比例縮放至[0,1]之間。
標準化:歸一化的一種,也稱為Z-score歸一化。將數據轉換成具有特定平均值和標準差的分佈,使數據的分佈均值為0,標準差為1。
以上就是6個統計學裡相當重要的概念,講完一些資料分析的相關理論後,明天要正式進入實作階段嚕!